19 research outputs found

    Large-Scale Online Semantic Indexing of Biomedical Articles via an Ensemble of Multi-Label Classification Models

    Full text link
    Background: In this paper we present the approaches and methods employed in order to deal with a large scale multi-label semantic indexing task of biomedical papers. This work was mainly implemented within the context of the BioASQ challenge of 2014. Methods: The main contribution of this work is a multi-label ensemble method that incorporates a McNemar statistical significance test in order to validate the combination of the constituent machine learning algorithms. Some secondary contributions include a study on the temporal aspects of the BioASQ corpus (observations apply also to the BioASQ's super-set, the PubMed articles collection) and the proper adaptation of the algorithms used to deal with this challenging classification task. Results: The ensemble method we developed is compared to other approaches in experimental scenarios with subsets of the BioASQ corpus giving positive results. During the BioASQ 2014 challenge we obtained the first place during the first batch and the third in the two following batches. Our success in the BioASQ challenge proved that a fully automated machine-learning approach, which does not implement any heuristics and rule-based approaches, can be highly competitive and outperform other approaches in similar challenging contexts

    Machine learning techniques for semantic text indexing

    No full text
    This thesis presents an original research in the field of machine learning andmore specifically in the areas of multi-label learning and topic models. Themain task considered in this thesis involves a setting in which there exists acollection of data and we are interested in determining the concepts describingeach of these data points.In the case of multi-label learning, the task is supervised: there exist atraining data set and a given concepts ontology and the goal is to train amulti-label learning model that will effectively predict concepts on new data.Topic models entail an unsupervised context, aiming at specifying both theontology of concepts, or, in other words, the topics of the collection, as wellas the concepts describing each data point. Throughout the dissertation theapplication domain is text, nevertheless the contributions of the thesis canreadily be extended to other data domains.In this thesis, we are interested in the following problems: a) effectivecombination of multi-label learning methods, b) improving parameter estimationfor supervised and unsupervised topic models c) adaptation of supervisedtopic modelling algorithms, to deal successfully with multi-label learning taskshaving extremely large concept taxonomies.First, we present a multi-label ensemble method, that combines multilabelclassifiers and employs a statistical significance test in order to validateits choices. Second, two novel estimators are introduced for topic models.These methods, employ a full probability distribution to compute improvedestimators for the topic model parameters, both in terms of performance andtime complexity. Finally, we propose an extension to multi-label learningtopic models, that effectively scales up to tasks with hundreds of thousandsof concepts. The above methods are evaluated and compared against therelevant state-of-the-art, in multiple experimental settings and for diverseevaluation procedures.Η διατριβή συνεισφέρει μια πρωτότυπη έρευνα στον τομέα της μηχανικής μάθησης και πιο συγκεκριμένα στις περιοχές της μάθησης από δεδομένα πολλαπλών ετικετών και των μοντέλων θεμάτων. Το κύριο πρόβλημα που αντιμετωπίζεται αφορά ένα σενάριο όπου υπάρχει ένα σύνολο δεδομένων για τα οποία υποθέτουμε ότι κάθε στοιχείο μπορεί να περιγραφεί από περισσότερες της μίας σημασιολογικές έννοιες, ή μία κατανομή επί αυτών. Ο στόχος μας σε αυτή την περίπτωση, είναι να προσδιορίσουμε τις έννοιες αυτές για κάθε στοιχείο του συνόλου δεδομένων.Στην περίπτωση της μάθησης από δεδομένα πολλαπλών ετικετών, το πρόβλημα ανήκει στην επιβλεπόμενη μάθηση: υπάρχει ένα σύνολο δεδομένων εκπαίδευσης και μια δοσμένη οντολογία εννοιών και ο στόχος είναι να εκπαιδευτεί ένα μοντέλο πολλαπλών ετικετών που θα προβλέπει επιτυχώς έννοιες σε νέα δεδομένα. Τα μοντέλα θεμάτων αφορούν ένα πλαίσιο μη επιβλεπόμενης μάθησης, στοχεύοντας στον προσδιορισμό τόσο της οντολογίας των εννοιών, δηλαδή των θεμάτων της συλλογής, όσο και τις έννοιες που περιγράφουν κάθε στιγμιότυπο δεδομένων, δηλαδή τις κατανομές στιγμιότυπου-θεμάτων. Αν και το πεδίο εφαρμογής της διατριβής είναι το κείμενο, εντούτοις οι συνεισφορές της μπορούν εύκολα να επεκταθούν και σε άλλους τομείς εφαρμογών.Σε αυτή την εργασία, μας απασχολούν τα εξής προβλήματα: α) ο αποτελεσματικός συνδυασμός μοντέλων μάθησης πολλαπλών ετικετών, β) η βελτίωση του υπολογισμού των παραμέτρων για επιβλεπόμενα και μη επιβλεπόμενα μοντέλα θεμάτων γ) η επέκταση επιβλεπόμενων μοντέλων θεμάτων, ώστε να αντιμετωπίζουν επιτυχώς προβλήματα μάθησης από δεδομένα πολλαπλών ετικετών που έχουν πάρα πολύ μεγάλες οντολογίες εννοιών.Αρχικά, παρουσιάζουμε μια μέθοδο συνόλου για μεθόδους μάθησης από δεδομένα πολλαπλών ετικετών, που συνδυάζει ταξινομητές πολλαπλών ετικετών και εφαρμόζει ένα τεστ στατιστικής σημαντικότητας ώστε να επιβεβαιώσει τις επιλογές του. Στη συνέχεια, εισάγεται μια καινοτόμα μέθοδος υπολογισμού των παραμέτρων για μοντέλα θεμάτων. Η μέθοδος κάνει χρήση της πλήρους κατανομής πιθανότητας της Λανθάνουσας Κατανομής \textlatin{Dirichlet (LDA)}, προτείνοντας βελτιωμένους εκτιμητές παραμέτρων τόσο από πλευράς απόδοσης όσο και χρονικής πολυπλοκότητας. Τέλος, προτείνουμε μια επέκταση για μοντέλα θεμάτων επιβλεπόμενης μάθησης, που καταφέρνουν να αντιμετωπίσουν επιτυχώς προβλήματα με εκατοντάδες χιλιάδες έννοιες. Οι παραπάνω μέθοδοι αξιολογούνται σε εκτενή πειράματα με την αιχμή της τεχνολογίας σε κάθε τομέα, με τα αποτελέσματα να φανερώνουν σημαντικά πλεονεκτήματα για τις μεθόδους μας, σε όλες τις περιπτώσεις

    Neural Embedding Allocation: Distributed Representations of Topic Models

    No full text
    We propose a method that uses neural embeddings to improve the performance of any given LDA-style topic model. Our method, called neural embedding allocation (NEA), deconstructs topic models (LDA or otherwise) into interpretable vector-space embeddings of words, topics, documents, authors, and so on, by learning neural embeddings to mimic the topic model. We demonstrate that NEA improves coherence scores of the original topic model by smoothing out the noisy topics when the number of topics is large. Furthermore, we show NEA’s effectiveness and generality in deconstructing and smoothing LDA, author-topic models, and the recent mixed membership skip-gram topic model and achieve better performance with the embeddings compared to several state-of-the-art models

    Deep Self-Organizing Map of Convolutional Layers for Clustering and Visualizing Image Data

    No full text
    The self-organizing convolutional map (SOCOM) hybridizes convolutional neural networks, self-organizing maps, and gradient backpropagation optimization into a novel integrated unsupervised deep learning model. SOCOM structurally combines, architecturally stacks, and algorithmically fuses its deep/unsupervised learning components. The higher-level representations produced by its underlying convolutional deep architecture are embedded in its topologically ordered neural map output. The ensuing unsupervised clustering and visualization operations reflect the model’s degree of synergy between its building blocks and synopsize its range of applications. Clustering results are reported on the STL-10 benchmark dataset coupled with the devised neural map visualizations. The series of conducted experiments utilize a deep VGG-based SOCOM model
    corecore